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BESCHREIBUNG 

Automatische Erkennung von Unternehmensnamen in sprachlichen Aufierungen 

Die Erfindung betrifft ein Verfahren zur automatischen Erkennung von Unternehmens- 
namen in sprachlichen Aufierungen. Die Erfindung betrifft ebenso ein Dialogsystem, ins- 
5 besondere Auskunftssystem, mit einer Verarbeitungseinheit zur automatischen Erkennung 
von Unternehmensnamen in sprachlichen Aufierungen. 

Bei Dialog- bzw. Auskunftssystemen wie beispielsweise bei Telefonauskunftssystemen be- 
reitet die Erkennung von Unternehmensnamen besondere Schwierigkeiten. Diese beruhen 

10 darauf, dass von Benutzern bei der sprachlichen Eingabe von Unternehmensnamen regel- 
mafiig kein vorgegebenes festes Format noch eine bestimmte Syntax eingehalten werden. 
So werden haufig Teile eines Unternehmensnamens bei einer Eingabe weggelassen, es wer- 
den Abkurzungen gebildet, Akronyme verwendet oder auch Bestandteile des Unterneh- 
mensnamens vertauscht. Dies fiihrt zu unbefriedigenden Ergebnissen bei der automati- 

15 schen Erkennung von Unternehmensnamen. 

Der Erfindung liegt daher die Aufgabe zugrunde, die Fehlerrate bei der automatischen 
Erkennung von Unternehmensnamen in sprachlichen Aufierungen zu reduzieren. 

20 Die Aufgabe wird durch ein Verfahren gemafi Patentanspruch 1 und ein Dialogsystem 
gemafi Patentanspruch 7 gelost. 




Die noch mit einer hohen Fehlerrate behafteten Erkennungsergebnisse eines ublicherweise 
verwendeten Spracherkenners werden gemafi der Erfindung einer Nachverarbeitung unter- 

25 zogen. Hierbei wird eine Datenbank verwendet, in der samtliche fur die jeweilige Anwen- 
dung zulassigen Unternehmensnamen gespeichert sind. Durch das Ausnutzen der Daten- 
bankinformationen lassen sich beispielsweise unsinnige Sprach erkennungsergebnisse korri- 
gieren. Auch eine Selektion des besten Erkennungsergebnisses aus einer Menge von vom 
Spracherkenner gelieferter verschiedener Erkennungsergebnisalternativen lasst sich so reali- 

30 sieren. 
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Vorzugsweise werden in der Datenbank die Unternehmensnamen in der juristisch korrek- 
ten Form abgelegt. Eine vom Spracherkenner gelieferte Wortfolgenhypothese bzw. eine 
Liste N bester Wortfolgenhypothesen wird dabei mit den Datenbankeintragen abgeglichen. 
5 Dabei wird in der Datenbank nach den Wortfolgenhypothesen in ihrer Gesamtheit und 
nach Bestandteilen der Wortfolgenhypothesen gesucht. Mit Hilfe des Ergebnisses der Su- 
che wird nun unter Berucksichtigung der vom Spracherkenner gelieferten Wortfolgen- 
hypothese(n) einen in der Datenbank gespeicherter Unternehmensname als Erkennungser- 
gebnis selektiert. Liefert der Spracherkenner fiir eine eingegebene sprachliche AuCerung 

10 jeweils nur eine Wortfolgenhypothese, und lasst sich kein Unternehmensname finden, der 
vollstandig in dieser Wortfolgenhypothese reprasentiert ist, so wird ein Unternehmensna- 
me selektiert werden, der wenigstens teilweise in der Wortfolgenhypothese enthalten ist. 
Liefert der Spracherkenner fiir eine sprachliche Aufierung mehrere Wortfolgenhypothesen, 
wird der Abgleich mit den Datenbankeintragen entsprechend erweitert und die in Anbet- 

15 racht der in der Datenbank gespeicherten Unternehmensnamen beste Wortfolgenhypothe- 
se ermittelt. 

Vorteilhafte Ausgestaltungen der Erfindung sind in den Unteranspruchen angegeben. 

20 Ausfiihrungsbeispiele der Erfindurig werden nachfolgend anhand der Zeichnungen naher 
erlautert. Es zeigen: 
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Fig. 1 ein an ein offentliches Telefonnetz angeschlossenes Dialogsystem und 

25 Fig. 2 eine Verarbeitungseinheit zur automatischen Erkennung von Unterneh- 

mensnamen in sprachlichen Aufierungen, die in Dialogsystem gemafi Fig. 1 
verwendet wird. 



Das in Fig. 1 gezeigte Dialogsystem 1, bspw. ein Telefonauskunftsystem, ist mittels einer 
30 Schnittstelle 2 mit einem offentlichen Telefonnetz (PSTN) 3 gekoppelt, so dass ein Benut- 
zer mittels eines Telefonendgerats 4 auf das Dialogsystem 1 zugreifen kann. Eine sprachli- 
che Aufierung eines Benutzers kann so Qber das Telefonendgerat 4, dass offentliche Tele- 



9* 

PHDE000116 



^3 



fonnetz 3 und die Schnittstelle 2 einer Verarbeitungseinheit 5, die zur Umsetzung von 
Sprache in Text dient, zugefuhrt werden. Die Verarbeitungseinheit 5 liefert ein Erken- 
nungsergebnis, dass einer Dialogkontrolleinheit 6 zugefuhrt wird, die in Abhangigkeit von 
der jeweiligen Anwendung eine geeignete an den Benutzer zu iibertragende Sprachausgabe 
5 bestimmt. Ein auszugebendes Sprachsignal wird von einer Verarbeitungseinheit 7 zur Um- 
setzung von Text in Sprache (z. B. Sprachsyntheseeinheit) generiert, wobei die jeweilige 
Sprachausgabe von Steuersignalen abhangt, die von der Dialogkontrolleinheit 6 an die 
Verarbeitungseinheit 7 iibertragen werden. 

10 Die Verarbeitungseinheit 5 ist insbesondere so ausgefiihrt, dass Unternehmensnamen mit 
einer geringen Fehlerrate erkannt werden. Die hierzu getroffenen MafSnahmen erlautert 
das Blockschaltbild gemafi Fig. 2, das die entsprechende Ausgestaltung der Verarbeitungs- 
einheit 5 zeigt. Eine von der Schnittstelle 2 kommende und als elektrisches Signal vorlie- 
gende SprachauCerung wird hier von einem Spracherkenner 10 mit einem auf Hidden- 
15 Markow-Modellen (HMM) basierenden Spracherkennerkern 11 unter Verwendung eines 
akustische Referenzen aufweisenden akustischen Modells 12 und eines Sprachmodells 13 
in ublicher Weise ausgewertet. Als Erkennungsergebnis liefert der Spracherkenner 10 eine 
Wortfolgenhypothese, die ein oder mehrere einen Unternehmensnamen beschreibende 
Worte und gegebenenfalls noch weitere keine fiir die Erkennung eines Unternehmensna- 
20 mens verwertbare Worte enthalten. Block 14 kennzeichnet eine Vergleichseinheit, die ei- 
nen Vergleich der vom Spracherkenner 10 gelieferten Wortfolgenhypothese mit Eintragen 
einer Datenbank 15 durchfuhrt. In der Datenbank 15 sind dabei fur die jeweilige Anwen- 
dung zulassige Unternehmensnamen gespeichert, wobei insbesondere die juristisch kor- 
rekte Schreibweise verwendet wird. Dabei ist es vorteilhaft, bestimmte a priori festgelegte 
25 Woner, welche kaum oder gar nicht zur Unterscheidung der Unternehmensnamen beitra- 
gen (Artikel, haufig vorkommende Fiillworter), aus den juristischen Namen innerhalb der 
Datenbank 15 — und konsequenter Weise auch aus den Wortfolgenhypothesen des Spra- 
cherkenners 10 - zu streichen und beim Vergleich in Block 14 nicht zu beriicksichtigen. 
Die Datenbank 15 enthalt dann auch Eintrage mit den gegebenenfalls entsprechend ver- 
30 kiirzten Unternehmensnamen, die dann anstelle der ungekiirzten Unternehmensnamen 
dem Vergleich mit einer Wortfolgenhypothese zugrundegelegt werden. Dieses hat den 
Vorteil, das der Vergleich in Block 14 beschleunigt wird, weil keinerlei Bewertung dieser 
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Fullworter stattfindet. Bei dem Vergleich in Block 14 wird zunachst nach einem in der 
Datenbank 15 gespeicherten Eintrag gesucht, der vollstandig in der vom Spracherkenner 
10 gelieferten Wortfolgenhypothese enthalten ist. 1st dies der Fall, wird dieser Unterneh- 
mensname als Erkennungsergebnis 16 ausgegeben. Ist dies nicht der Fall, wird nach einem 
Datenbankeintrag gesucht werden, der einen Unternehmensnamen enthalt, der wenigstens 
teilweise in der Wortfolgenhypothese enthalten ist. Dabei sind vorzugsweise bestimmte 
Anteile von Firmennamen als besonders kennzeichnend definiert und bspw. mit einem 
entsprechend grofien Gewichtungsfaktor versehen, der bei dem Vergleich gemafi Block 14 
berixcksichtigt wird. So wird z.B. beim Unternehmensnamen Philips GmbH der Bestand- 
teil „Philips" einen hoheren Wichtungsfaktor erhalten als der Bestandteil „GmbH". Beim 
Unternehmensnamen „Deutsche Telekom" wird der Bestandteil „TeIekom" einen hoheren 
Wichtungsfaktor erhalten als der Bestandteil ^Deutsche". In der Datenbank 15 gespei- 
cherte Worte, die als keine fur die Erkennung eines Unternehmensnamens verwertbare 
Informationen tragende Worte definiert sind, werden zur Reduktion der Wortfolgen- 
hypothese urn entsprechende Bestandteile verwendet. Beispiele fur solche Worte sind Arti- 
kel, Prapositionen, Fiillworte usw. 

Eine beim Vergleich in Block 14 benutzte Suchmaschine arbeitet in einer bevorzugten 
Ausfiihrungsform folgendermafien: Stimmt ein vom Spracherkenner 10 geliefertes Erken- 
nungsergebnis exakt mit einem Eintrag in der Datenbank 15 iiberein, so erhalt dieser Ein- 
trag die hochste Bewertung - andere Datenbankeintrage, welche nur in Teilen iiberein- 
stimmen, konnen denhoch als Alternativen ausgegeben werden. 

Vorzugsweise liefert der Spracherkenner 10 fur eine sprachliche Aufierung nicht nur eine 
Wortfolgenhypothese, sondern mehrere N beste Wortfolgenhypothesen (N >1). Diese sind 
entsprechend einer vom Spracherkenner 10 ermittelten Wahrscheinlichkeit sortiert, was 
von der Vergleichseinheit 14 berucksichtigt wird. Insbesondere werden nicht nur N beste 
Wortfolgenhypothesen fur eine sprachliche Aufierung an die Vergleichseinheit 14 gegeben, 
sondern aufierdem noch fur jede Wortfolgenhypothese ein Wahrscheinlichkeitswert, wobei 
Spracherkenner zur Lieferung N bester Erkennungsergebnisse mit entsprechenden Wahr- 
scheinlichkeiten P Nbesr (Firmenname) bekannt sind, Auch die Vergleichseinheit 14 liefert 
durch Auswertung der Eintrage der Datenbank 15 Wahrscheinlichkeiten P Vcr ^ chs€inh ^ (Fir- 
menname) fur jeden gefundenen Firmennamen. Die Gewichtung der finalen Suchresultate 



_ : PHDE000116 

-5- " 



3 



kann dann z.B. durch die Gesamtwahrscheinlichkeit: 

P(Firmenname) = P Nbesr (Firmenname) * P v«gicich«inheit( Firmenname ) 

5 erfolgen. Dieses wird unter der vereinfachten Annahme durchgefuhrt, dass die Spracher- 
kennung und die Vergleichseinheit statistisch unabhangig sind. 

Block 16 kennzeichnet die Bestimmung der Sprachmodellwerte des Sprachmodells 13. In 
einer Trainings phase werden hierzu die Eintrage der Datenbank 15 ausgewertet. Verbesse- 

10 rungen bei der Bildung des Sprachmodells 13 werden dadurch erreicht, dass a priori als 
sinnvoll definierte Varianten (z.B. sinnvolle Vertauschungen von Namensbestandteilen, 
umgangssprachliche Formulierungen wie z. B. „Big Blue", u.a ) der in der Datenbank 15 
gespeicherten Unternehmensnamen (Block 17) bei dem Training des Sprachmodells 13 
einfliefien. Eine weitere Verbesserung des Trainings des Sprachmodells 13 wird dadurch 

15 erreicht, dass Daten, die mittels sich bereits im Einsatz befindlicher Dialogsysteme aus tat- 
sachlichen Anfragen bzw. Dialogen gewonnen wurden, ebenfalls in das Training einfliefien 
(diese Daten kennzeichnet Block 18). Diese konnen auf zweierlei Weisen einfliefien: einer- 
seits dadurch, dass sie einfach dem Trainings material hinzugefugt werden, und andererseits 
dadurch, dass die darin enthaltenen Haufigkeiten von Anfragen nach bestimmten Firmen 

20 als Gewichtung (im Sinne eines Unigramms) in das Train ingsmaterial bestehend aus den 
reinen Datenbankeintragen einfliefien. Weiterhin ist beim vorliegenden Spracherkenner 10 
eine Online-Adaption des Sprachmodells 13 vorgesehen, die zur weiteren Absenkung der 
Fehlerrate bei der Erkennung eingegebener Unternehmensnamen fuhrt. Fur die Online- 
Adaption werden die vom Spracherkenner 10 im Betrieb des Dialogsysterns 1 gewonnenen 

25 Wortfolgenhypothesen verwendet. Die Algorithmen zur Sprachmodelladaption sind ebenso 
wie die Algorithmen zum Sprachmodelltraining bekannt und werden von Block 16 zu- 
sammengefasst. 
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PATENTANSPROCHE 



1. Verfahren zur automatischen Erkennung von Unternehmensnamen in sprachlichen 
Aufierungen, bei dem 

mittels eines Spracherkenners (10) aus einer aus ein oder mehreren Worten bestehen- 
den SprachaufSerung mindestens eine Wortfolgenhypothese erzeugt wird, 
5 - ein Vergleich der Wortfolgenhypothese mit in einer Datenbank (15) gespeicherten 

Unternehmensnamen reprasentierenden Eintragen durchgefuhrt wird, 
[ - in Abhangigkeit vom Ergebnis des Vergleichs ein Unternehmensname als Erkennungs- 
ergebnis (16) selektiert wird. 

10 2. Verfahren nach Anspruch 1, 
dadurch gekennzeichnet , 

dass der Spracherkenner (10) fur jede Wortfolgenhypothese einen Wahrscheinlichkeitswert 
liefert, der bei dem Vergleich beriicksichtigt wird. 

15 3. Verfahren nach Anspruch 1 oder 2, 
dadurch gekennzeichnet , 

dass mittels vom Spracherkenner (10) gelieferter Wortfolgenhypothesen eine Adaption 
eines vom Spracherkenner (10) verwendeten Sprachmodells (13) durchgefuhrt wird. 

20 4. Verfahren nach einem der Anspriiche 1 bis 3, 
dadurch gekennzeichnet , 

dass beim Vergleich einer Wortfolgenhypothese mit Eintragen der Datenbank (15) be- 
stimmte a priori festgelegte Worte nicht beriicksichtigt werden 



PHDE000116 

-7- : 



5. Verfahren nach einem der Anspriiche 1 bis 4, 
dadurch gekennzeichnet , 

dass der Spracherkenner (10) ein Sprachmodell (13) verwendet, das mit Hilfe der in der 
Datenbank (15) gespeicherten Informationen trainiert wurde. 

5 

6. Verfahren nach Anspruch 5, 
dadurch gekennzeich net , 

dass beim Training der Sprachmodells (13) sinnvolle Varianten von Unternehmensnamen 
beriicksichtigt wurden. 

10 




7. Dialogsystem, insbesondere Auskunftssystem, mit einer Verarbeitungseinheit (5) zur 



automatischen Erkennung von Unternehmensnamen in sprachlichen AuKerungen, die 
einen Spracherkenner (10) aufweist, der zur Erzeugung mindestens einer Wortfolgen- 
hypothese aus einer aus ein oder mehreren Worten bestehenden Sprachaufierung dient, 
15 - eine Vergleichseinheit (14) aufweist, die zur Durchfuhrung eines Vergleichs der 

Wortfolgenhypothese mit in einer Datenbank (15) gespeicherten Unternehmensnamen 
reprasentierenden Eintragen und zur Selektion eines Unternehmensnamens als Erken- 
nungsergebnis (16) in Abhangigkeit vom Ergebnis des Vergleichs vorgesehen ist. 
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FIG. 2 
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ZUS AM M BIN F ASSUN G 

Automatische Erkennung von Untern eh mens name n in sprachlichen Aufierungen 

Die Erfindung betrifft ein Verfahren zur automatischen Erkennung von Unternehmens- 
namen in sprachlichen Aufierungen. 

Um die Fehlerrate bei der automatischen Erkennung der Unternehmensnamen zu reduzie-' 

ren, ist vorgesehen, dass 

mittels eines Spracherkenners (10) aus einer aus ein oder mehreren Worten bestehen- 

den Sprachaufierung mindestens eine Wortfolgenhypothese erzeugt wird, 

ein Vergleich der Worrfolgenhypothese mit in einer Datenbank (15) gespeicherten 

Unternehmensnamen reprasentierenden Eintragen durchgefuhrt wird, 

in Abhangigkeit vom Ergebnis des Vergleichs ein Unternehmensname als Erkennungs- 

ergebnis (16) selektiert wird. 
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